作者:红豆牛奶 审核:X 封面:自己想吧
上一篇已经介绍了如何鉴别异常值,本篇则继续讲述当出现异常值时应该如何处理?
在spss菜鸟篇中,已经多次强调过,做任何分析都要从实际情况来判断并得出最终结果,所以对于异常值的处理来说,也并没有一个标准来界定,但,我们可以按照如下思路来处理:
1.当发现异常值时,首先应该回到数据中,检查是否存在数据收集或者数据录入方面的错误,如果发现此类错误,则应及时更正为正确的数据,并且再次检测异常值,所以为了避免此类重复操作,在数据预处理的所有环节都应该细心。
2.剔除异常值:若数据的收集与录入是正确的,但是仅有极个别的异常值,而且经过调研人员的探讨,在所要研究的群体中也非常少见,剔除数据不会对最终的研究结果有很大的影响,那么可以剔除此数据。注意,在最终的报告中,需要写明,调研结果是为了将其推广到尽可能大的范围中,若不剔除会导致分析的结果不理想。还是那句话,一切从实际的调研情况出发,如需剔除,需要在报告中说明剔除此数据的原因,以及对结果的影响。
3.保留异常值:在实际操作中,不能因为异常值不符合预期的统计而就将其剔除,因为它代表了真实的情况,需要保留,有两种方法处理方法:
A.纳入异常值进行分析,在结果中需要说明存在异常值,或者分别计算纳入异常值与剔除异常值后的相关系数,若两个结果没有明显的差别,则保留异常值。
B.做数据转换。但是,数据转换后需要重新检验数据的正态性和线性性相关性,并且对所有的假设条件重新检查。
Ps:若实在不知道是否应该剔除异常值,或者剔除前后,检验结果非常不一致,则应该同时报告剔除数据前后两个结果,并且在文章中讨论可能的原因。
同时,除了对异常值进行讨论,也应该考虑现有的模型是否合适。(如:是否应该考虑非线性模型)
注意,只要对数据进行了任何修改,都应该重新做假设条件的分析并在结果中报告这些修改。